2 | 研究 ， 展望 与 研判 


202310.01974v1 


chinaXiv 


数据 引领 新 闻 业 的 未 来 


ChinaXiv 合 作 期 刊 


摘 要 : 大 数据 时 代 的 到 来 ， 为 传统 新 闻 业 带 来 了 新 的 机 遇 。 数 据 新 闻 的 诞生 和 发 展 ， 丰 富 了 新 闻 报 道 的 内 容 和 方式 。 本 文 
从 数据 新 闻 的 定义 出 发 ， 梳 理 了 数据 新 闻 的 起 源 、 发 展 和 报道 方式 ， 并 通过 ProPublica 和 The Upshot 这 两 个 数据 新 闻 平 台 的 
的 多 个 案例 ， 对 数据 新 闻 报 道 的 阶段 和 其 所 呈现 的 特点 做 出 思考 与 总 结 。 
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数据 和 算法 正在 改变 着 各 个 行业 ， 重 新 塑造 我 们 的 
生活 。 现 今 ， 讲 故事 也 要 靠 数据 了 。 几 年 前 ， 老 牌 新 闻名 
校 “ 哥 伦比 亚 大 学 ”开设 了 一 个 名 为 Lede 的 新 闻 学 特色 
项 目 ， 一 经 推出 便 迅 速成 为 数据 新 闻 教 育 的 示范 性 项 目 。 

该 项 目 针 为 计算 机 方面 零 基 础 或 者 基础 薄弱 ,但 是 
有 志 于 学 习 计算 机 编程 的 学 生 提 供 了 两 个 选择 : 其 一 ， 
参加 为 期 12 周 的 加 强 型 夏季 训练 营 ， 授 课 内 容 有 计算 基 
础 (Foundations of Computing ) 、 数据 和 数据 库 ( Data and 
Databases ) 、 算法 ( Algorithms ) 和 数据 平台 分 析 人 研究 ( Data 
Analysis Studio ) 等 ; 其 二 ， 学 生 参 加 完 12 周 的 训练 营 之 
后 ， 可 以 根据 自己 的 兴趣 自行 选择 是 否 继续 秋季 课程 的 
学 习 。 秋 季 课 程 将 更 加 系统 地 学 习 数 据 分 析 和 算法 ， 课 
程 也 围绕 基本 数据 结构 (Essential Data Structures ) 、 社 
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素养 与 运用 大 数据 信息 结合 起 来 报道 新 闻 的 方式 ”; 特 
洛 伊西 伯 德 克 斯 (Troy Thibodeaux ) 在 《五 步 开始 数据 
新 闻 》(5 tips for getting started In data Journalism ) 中 写 道 ， 
“将 数据 运用 到 制作 和 传播 信息 的 过 程 中 ， 它 反映 了 内 
容 生产 者 和 设计 、 计 算 机 和 统计 领域 之 间 的 互动 ”; 国 
内 学 者 章 戈 浩 认为 , 数据 新 闻 是 “对 数据 进行 分 析 与 过 滤 ， 
从 而 创作 出 新 闻 报道 的 方式 ”; 方 洁 等 人 则 提出 ， 数 据 
新 闻 是 “基于 数据 的 抓 取 、 挖 掘 、 统 计 、 分 析 和 可 视 化 
呈现 的 新 型 新 闻 报 道 方式 ”。 

西蒙 罗杰斯 ( Simon Rogers ) 是 一 位 经 验 丰富 的 数 
据 新 闻 编 辑 , 他 曾 在 《 卫 报 》、 推 特 和 谷歌 从 事 数据 分 析 ， 
同时 ， 他 也 是 数据 新 闻 博 客 (Datablog ) 的 创始 人 。2013 
年 , 罗杰斯 出 版 了 《事实 是 神圣 》( Facts are sacred ) 一 书 ， 
回顾 和 梳理 了 他 曾 在 《 卫 报 》 工 作 15 年 期 间 做 出 的 数据 


会 科学 数据 分 析 ( Data Analysis for Social Sciences ) 、 用 
数据 讲 故 事 ( Storytelling with Data ) 、 数字 行动 ( Digital 
Activism ) 等 。 可 以 看 出 ，Lede 项 目的 课程 以 社会 科学 和 
人 文科 学 为 基础 ， 为 了 让 学 生 们 为 将 来 从 事 以 数据 统计 
为 驱动 的 媒体 业务 做 好 准备 。 
1. 数据 生成 新 闻 

尽管 近年 来 人 们 对 大 数据 的 提 法 并 不 陌生 ， 但 对 于 
什么 是 数据 新 闻 ( Data Journalism ) ， 大 家 的 理解 和 探索 
还 只 是 开始 。 乔 纳 森 . 格雷 ( Jonathan Gray ) 等 人 在 《 数 
据 新 闻 手 册 》 (The Data Journalism Handbook ，2012 ) 中 
这 样 写 道 ， 从 表面 上 讲 ， 数 据 新 闻 就 是 用 数据 报道 新 闻 ， 
但 是 “数据 ”和 “新 闻 ” 本 身 就 是 让 人 困扰 的 术语 ， 尤 
其 当 我 们 生活 在 一 个 方方面面 都 可 以 用 数字 描绘 的 时 代 ， 
数据 可 以 为 新 闻 提 供 来 源 ， 也 可 以 成 为 讲 故 事 的 工具 ， 
或 者 说 数据 与 新 闻 互 为 因果 ， 它 是 一 种 “将 记者 的 新 闻 


新 闻 报道 ， 讲 述 了 数据 新 闻 背 后 的 故事 ， 数 据 如 何 改 变 
我 们 的 生活 以 及 我 们 能 从 中 学 到 什么 。 在 罗杰斯 看 来 ， 
数据 新 闻 的 首要 任务 是 讲 故事 , 而 不 是 画图 形 或 写 代码 。 
数据 是 开放 的 ， 属于 每 一 个 人 ， 在 数据 的 呈现 下 ， 人 们 
可 以 更 好 地 理解 新 闻 。 与 此 同时 ， 随 着 数字 技术 的 发 展 
和 更 欠 ， 总 会 有 越 来 越 多 的 工具 帮助 媒体 进行 数据 分 析 
和 结果 处 理 。 
2. 数据 新 闻 的 报道 方式 

2010 年 8 月 ， 德 国之 声 记 者 米尔 科 ' 洛 伦 效 ( Mirko 
Lorenz ) 提出 了 进行 数据 新 闻 报 道 的 四 个 步 又: 首先 是 数 
据 挖掘 ;其 次 是 数据 过 滤 ; 再 次 是 ， 数 据 可 视 化 ; 最 后 
是 制作 新 闻 。 与 之 类 似 的 是 罗杰斯 在 其 个 人 博客 中 对 “ 数 
据 新 闻 流程 ”所 做 的 介绍 。 罗 杰 斯 认为 ， 数 据 新 闻 呈 现 
的 是 一 个 多 线性 、 全 方位 的 报道 流程 , 一 方面 处 理 数据 ， 
另 一 方面 不 断 验 证 、 质 询 数据 的 信和 度 与 价值 ， 最 后 通过 
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多 种 手段 与 渠道 发 布 报道 。 

伯 明 验 城市 大 学 教授 保 尔 . 布 拉 德 肖 (Paul 
bradshaw ) 在 《数据 新 闻 的 倒 金字 塔 结构 》 中 提出 了 “ 双 
金字 塔 模型 ”, 更 形象 地 揭示 了 数据 在 传播 过 程 中 的 变化 。 
其 中 ， 对 于 数据 处 理 的 过 程 ， 布 拉 德 肖 用 倒 金字 塔 结构 
来 呈现 , 分 别 是 数据 汇编 (Compile ) 、 数 据 整理 ( Clean ) 、 
了 解数 据 (Context ) 和 数据 整合 ( Combine ) 四 部 分 。 数 
据 处 理 的 目的 是 实现 有 效 传播 ， 而 数据 新 闻 传 播 则 以 “ 正 
金字 塔 结构 ”进行 ， 布 拉 德 肖 认 为 应 当 在 报道 中 体现 出 
可 视 化 ( Visualise )、 叙事 化 ( Narrate ) 、 社 会 化 ( Socialise )、 
人 性 化 (Human ) 。 


A 
。 数据 的 一 般 属 性 
。 人 事 信息 的 特殊 属性 
组 织 人 
= a i | 事 系 统 Y 
Ep i 


图 1 数据 新 闻 “ 双 金字 塔 模型 ” 


事实 上 ， 不 论 是 以 何 种 方式 进行 数据 新 闻 报 道 ， 数 
据 获 取 、 处 理 和 呈现 是 其 中 不 可 缺少 的 三 个 步骤 。 谈 到 
大 数据 对 新 闻 行 业 的 影响 ， 至 少 体现 在 两 个 方面 ， 一 是 
应 用 技术 来 收集 和 深度 分 析 数 据 ; 二 是 以 可 视 化 和 互动 
式 的 效果 呈现 新 闻 。 
3. 数据 新 闻 实 践 : ProPublica 和 The Upshot 
在 美国 ， 一 提 到 数据 新 闻 ， 人 们 最 先 想到 的 便 是 
ProPublica 和 《纽约 时 报 》 推 出 的 数据 新 闻 专 栏 “The 
Upshot”。 
总 部 设 在 美国 纽约 市 曼哈顿 区 的 非 鳃 利 公司 
ProPuplica 由 《华尔街 日 报 》 前 执行 总 编 约 输 : 施 泰 格 
( Paul Steiger ) 创立 ， 是 一 家 独立 的 新 闻 编 辑 部 ， 为 公 
众 利 益 进 行 调查 报道 。ProPublica 成 立 之 初 ， 便 集合 了 一 
批 最 优秀 的 新 闻 人 才 。 除 了 主编 施 泰 格 ， 还 有 来 自 《 纽 
约 时 报 》 前 调查 报道 主编 斯 蒂 芬 ， 恩格尔 伯 格 〈Stephen 
Engelberg ) 出 任 执行 主编 , 记者 和 编辑 全 都 来 自传 统 媒体 。 
2011 年 4 月 18 日 ,新 闻 界 最 高 荣誉 、 第 95 届 普 
利 策 奖 揭晓 ，ProPuplica 以 其 作品 《华尔街 金钱 机 器 》 
摘 得 国内 新 闻 报 道 奖 (2011 Pulitzer Prize for National 
Reporting ) 。 该 作品 历时 一 年 时 间 ， 通 过 可 视 化 手段 详 
尽 地 披露 了 华尔街 金融 巨头 们 为 自己 牟取 巨额 利润 的 全 
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过 程 。 

事实 上 , 这 已 不 是 ProPublica 第 一 次 获得 普 利 策 奖 。 
在 2010 年 ， 也 就 是 成 立 后 的 两 年 ， 它 就 凭借 调查 性 报道 
与 《纽约 时 报 》 共 同 获得 了 调查 性 报道 奖 ， 获 奖 记者 谢 
里 芬 克 (Sheri Fink ) 写 出 了 一 篇 关于 奥尔良 州 一 家 医 
院 在 卡特 里 娜 帜 风 中 向 病人 注射 致命 毒剂 的 调查 报道 。 
该 作品 除了 在 ProPublica 网 站 上 登 出 之 外 ， 同 样 也 在 《 纽 
约 时 报 》 上 以 纸 质 版 面貌 呈现 ， 但 像 2011 年 完全 以 数字 
化 报道 摘 得 善 利 策 奖 ，ProPublica 还 属 史 上 首次 ， 由 此 
它 也 成 为 美国 数据 新 闻 用 户 最 活跃 的 网 站 之 一 。 如 今 ， 
ProPublica 的 合作 伙伴 已 有 104 家 ， 如 《纽约 时 报 》《 华 
盛 顿 邮 报 》《 洛 杉 矶 时 报 》《 今 日 美国 》MSNBC 、CNN 等 。 

在 ProPublica 的 记者 看 来 ， 一 个 新 闻 应 用 就 是 一 个 
可 以 讲 故 事 的 交互 式 数据 库 ， 你 可 以 像 对 待 任何 一 条 新 
闻 作 品 一 样 看 待 它 ,只 不 过 是 用 软件 替代 了 文字 和 图 片 。 

“金钱 医生 ” ( Dollars for Docs ) 是 ProPublica 众多 
新 闻 应 用 中 的 一 个 。 它 追踪 的 是 医药 公司 以 咨询 、 讲 课 、 
旅游 等 形式 付 给 医生 数 以 亿 计 的 额外 费用 。 通 过 创建 这 
一 应 用 ， 读 者 能 够 查询 到 自己 的 医生 ， 看 他 们 收取 酬劳 
的 情况 , 其 他 合作 新 闻 机 构 的 记者 也 可 以 使 用 这 些 数据 。 

该 应 用 问世 后 ， 总 共有 超过 125 家 地 方 新 闻 机 构 
的 记者 基于 此 数据 对 当地 医生 进行 了 调查 报道 ， 但 这 
其 中 只 有 少数 是 ProPublica 的 正式 合作 伙伴 ， 其 余 大 多 
数 都 是 使 用 这 一 新 闻 应 用 和 数据 进行 独立 报道 。 对 此 ， 
ProPuplica 团队 认为 ， 如 果 他 们 的 数据 能 够 帮助 了 解 当 地 
情况 的 报道 者 讲述 有 冲击 力 的 故事 ， 他 们 也 就 完成 了 自 
吴 的 使 命 ， 这 与 ProPublica 始终 坚持 的 进行 “真正 重要 ” 
和 “具有 道德 力量 ”的 新 闻 报 道 的 目标 完全 吻合 。 

如 果 说 ProPublica 是 大 数据 时 代 的 产物 ， 那 么 The 
Upshot 则 是 传统 媒体 进军 数据 新 闻 领 域 的 典型 。2014 年 
春天 ，《 纽 约 时 报 》 推 出 了 新 栏目 The Upshot， 主 打数 据 
新 闻 。 

该 栏目 由 华盛顿 分 社 前 社 长 大 卫 : 莱 昂 喻 特 ( David 
Leonhardt ) 负责 ， 成 立 之 初 便 有 15 名 团队 成 员 ， 其 中 3 
位 是 全 职 图 形 设计 。The Upshot 针对 政治 经 济 领域 ， 旨 在 
通过 数据 分 析 和 呈现 ， 帮 助 受众 获知 新 闻 背 后 的 意义 。 
在 关注 新 闻 之 外 ，The Upshot 还 设计 了 许多 有 趣 的 互动 产 
品 ， 通 过 数据 分 析 和 建 模 ， 受 众 可 以 按 图 索 双 ,找到 自 
己 需要 的 信息 ， 并 得 到 相关 建议 。 

通过 The Upshot 和 ProPublica 的 案例 可 以 看 出 ， 数 
据 新 闻 往往 有 三 个 特点 。 

其 一 , 个 性 化 。 通过 一 组 数据 新 闻 或 一 款 互动 产品 ， 
受众 能 够 产生 共鸣 ， 并 找到 与 自己 相 匹配 的 答案 。 
其 二 ， 可 视 化 。 与 传统 新 闻 “ 文 字 + 图 片 ”不 
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ls It Better to Rent or Buy? 


By MIKE BOSTOCK, SHAN CARTER and ARCHIE TSE 


The choice between buying a home and renting one is among the biggest financial 
decisions that many adults make. But the costs of buying are more varied and 
complicated than for renting, making it hard to tell which is a better deal. To help you 
answer this question, our calculator takes the most important costs associated with 
buying a house and computes the equivalent monthly rent. RELATED ARTICLE 
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EQUNALENT If you can rent a similar 
Home Price i home for less than ... 
A very important factor, but not the 
only one. Our estimate will improve _ $aKk 
as you enter more details below. 
- $6K 
.then renting is better. 
-$4K 
5506| - $2K Costs after 9 years Rent Buy 
$250,000 加 ms - - Initial costs $906 $60,000. 


$100K $250K 


$1M $2M 


Recurring costs $109,685 $165,322 


3 The Upshot 互动 产品 “租房 还 是 买房 ? ”™ 
(通过 输入 房屋 价格 、 收 入 、 居 住 时 长 、 抵 押 情 况 、 维 护 费 用 、 税 费 、 手 续费 和 其 他 费用 来 测算 是 买房 还 是 租房 更 合适 。) 


同 ， 数 据 新 闻 更 多 的 是 用 图 表 来 讲 故 事 ， 通 过 图 形 化 
的 呈现 和 数据 分 析 展 现 文 字 所 无 法 达到 的 效果 。 如 The 
Upshot“ 美 国生 活 最 困难 的 地 方 是 哪里 ?”， 通 过 地 图 和 
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